En cartographie et en statistique, il est parfois nécessaire de simplifier l'information à transmettre.
■ Notamment lorsque la quantité d'information à représenter est très importante.
■ La réduction de l'information au sein de classes est appelée la discrétisation.
Réduire l'information en transformant des données continues ou déjà discrètes en classes d'intervalles distinctes, couvrant l'ensemble de la série statistique initiale
L'œil humain n'est pas en mesure d'associer un chiffre précis à la variable visuelle valeur (à l'inverse de la taille+forme). Seule la notion d'ordre est "innée" avec le rapport de noir et blanc sur une surface donnée.
Pour avoir associée à un niveau de gris un chiffre, il faut donc discrétiser
■ La carte communique une information par l'image
■ Elle utilise un langage conceptualisé par Jacques Bertin, la sémiologie graphique : alphabet, vocabulaire et syntaxe
■ Des biais cognitifs interviendront dans la conception de la carte (vision du cartographe sur ce qu'il observe).
Pour réduire ces biais et rendre votre message efficace, il faut :
■ Utiliser les règles de la conception cartographique
■ Penser la carte pour son public et non pour soi
■ Adapter le message cartographique (public, support, objectifs).
Identifier :
l’objectif de votre carte
■ Dois-je faire une carte pour y répondre ?
■ Dans quel contexte ? (Explorer ? Communiquer ?)
■ Quel est le message à faire passer ?
le public de votre carte
■ Des experts sur le sujet ?
■ Des novices ?
le support de la carte
■ Papier ? Informatique ?
■ Couleur ? Noir et blanc ? ?
Ensuite, vous pouvez identifier les informations à utiliser
Les règles de représentation des données en découleront et la discrétisation sera à adapter
Le message cartographique guide l’ensemble de la production d'une carte.
Il faut toujours avoir conscience des points suivants :
Cela passe par la bonne application des règles de la sémiologie graphique à l'ensemble de ces points Mais aussi dans certains cas un choix judicieux (rarement parfait) d'une discrétisation
Il est essentiel de comprendre les caractéristiques de la distribution de la ou des séries de données avec les outils de l’analyse univariée : :
Dans le cas contraire, vous risquez d’avoir une carte n’apportant que très peu d'information, car la discrétisation sera mal adaptée au message cartographique
Attention, il faudrait normalement que la première et la dernière classe soient regroupées sur l'histogramme
Certaines contraintes peuvent s'ajouter et complexifier la discrétisation
■ besoin de visualiser à un instant $t$ un phénomène (le plus simple).
■ Besoin de comparer des données identiques à deux dates.
■ Besoin de comparer des données différentes.
En cartographie, le découpage en classes d’une série de données suit les mêmes règles qu’en statistique :
Concept : même nombre d’individus dans chaque classe
Construction : nombre total d'individus (les départements) / nombre de classes souhaités
Avantages :
■ Très facile à réaliser.
■ Facilement compréhensible par le lecteur.
■ Permet de comparer la position des individus géographiques dans différentes distributions (ordre de grandeur). Les bornes de classes ne seront pas les mêmes.
■ Applicable à toutes les formes de distributions.
Inconvénients :
■ Risque de perte d’information sur la forme de la distribution.
■ Ne met pas forcément en évidence les valeurs extrêmes (max, min).
Concept : Pour contourner le problème des valeurs extrêmes non mises en évidence avec les quantiles, Philcarto propose une méthode dite Q6. Ce sont des quartiles, mais la première classe contient les cinq pourcents valeurs les plus petites et non 25%, la dernière classe les cinq pourcents valeurs les plus fortes.
Construction : [Min : 5%[ U [5% ; 25%[ U [25% ; 50%[ U [50% ; 75 %[ U [75% ; 95 %[ U [95% : max]
Avantages :
■ Facile à réaliser (Quartiles ajustés).
■ Mise en évidence des valeurs extrêmes.
■ Permet de comparer la position des individus géographiques dans différentes distributions (ordre de grandeur). Les bornes de classes ne seront pas les mêmes.
■ Applicable à toutes les formes de distributions.
Inconvénients :
■ Risque de perte d’information sur la forme de la distribution (mais moins que pour des quantiles).
■ Moins compréhensible par le lecteur que les quantiles (peu utilisées).
Concept : Les classes ont la même étendue (de 10 en 10, de 5 en 5 etc.)
Construction : (max – min) / nombre de classes souhaités
Avantages :
■ Très facile à réaliser.
■ Facilement compréhensible par le lecteur.
■ Efficace sur les distributions uniformes.
Inconvénients :
■ Très mal adaptée à une distribution non uniforme.
■ Succeptible de créer des classes vides.
Concept : Les classes se basent sur les propriétés de la loi normale. La moyenne est de préférence au centre d’une classe. L’amplitude de la classe correspond à l’écart type (0,5 σ, 1 σ, 1,5 σ)
Construction : [Min ; -1,5 σ[ U [-1,5 ; -0,5 σ[ U [-0,5 σ; +0,5 σ[ U [+0,5 σ; +1,5 σ[ U [+1,5, σ; Max]
Avantages :
■ A un sens sur les distribution gaussienne et permet dans ce cas un bon compromis géographique/statistique. Les classes extrêmes montrent les valeurs anormales, les classes centrales les valeurs proches de la normale.
■ Facilement compréhensible par le lecteur initié.
■ Permet la comparaison, si chaque série est gaussienne avec des moyennes et écart-type proches
Inconvénients :
■ Difficile à comprendre pour le lecteur non initié (propriétés de la loi normale).
■ Uniquement pour les distributions normales (transformation possible).
Construction : utilisation de l'algorithme de Jenks, qui minimise la variance intra-classe et maximise la variance inter-classe. Le cartographe peut "suivre" manuellement les coupures de l'histogramme, mais au prix d'une forte subjectivité (on parle de seuils naturels)
Avantages :
■ Permet un excellent compromis entre la transmission de l’information et la conservation des caractéristiques de la distribution statistiques
■ Les classes regroupent en leur sein les valeurs les plus semblables (minimise la variance intra-classe)
■ et elles sont le plus différentes possibles les unes par rapport aux autres (maximise la variance inter-classe)
Inconvénients :
■ Ne permet pas la comparaison de cartes si les bornes ne sont pas identiques.
■ Subjectif pour les seuils naturels. Deux personnes travaillant sur la même série de données n'auront pas forcément les mêmes résultats.
Pour les données de taux, la transmission du message est en grande partie liée à la discrétisation.
En cartographie, discrétiser une série statistique suppose donc un compromis entre :
■ La représentation et la transmission du message cartographique.
■ Des biais cognitifs interviendront dans la conception de la carte (vision du cartographe sur ce qu'il observe).
Ce qui conduit souvent à un nombre de classes en cartographie allant de 4 à 7
■ En dessous, l’information spatiale sera trop faible
■ Au-delà, la carte sera trop complexe à comprendre : trop d’informations visuelles
■ La longueur de la variable visuelle valeur ne permet pas à votre œil d'associer les différents niveaux de gris de la carte avec ceux de la légende.
Vous prendrez un minimum de risques avec une discrétisation en 5 classes.
■ A part en science physique, garder 10 chiffres après la virgule n'a pas trop d'intérêt
■ Dans la plupart des cas, arrondissez à un chiffre après la virgule, deux au maximum selon l'indicateur
■ Mais il faut arrondir en amont de la mise en page. Cela évitera qu'un individu se retrouve dans la mauvaise classe (dans un logiciel de cartographie, changer bornes de classes met à jour automatiquement le rendu. Ce n'est pas le cas d'un logiciel de dessin assisté par ordinateur)
Soit comparer des données de même nature : comparaison absolue
■ Une même valeur (niveau de gris) est associée à un même interval de classe entre les cartes à comparer
■ Les bornes de classes doivent donc être identiques
Ou comparer des données de natures différentes : comparaison relative
■ On compare la fréquence des individus de chaque classe
■ Une même valeur (niveau de gris) est associée à une même fréquence entre les cartes à comparer
■ On fait donc en sorte que les effectifs de classes des différentes séries soient identiques
Si on souhaite comparer des données identiques, une solution est de discrétiser avec des bornes de classes identiques entre les cartes : comparaison absolue.
Les même classes avec des bornes identiques et le même niveau de gris se retrouvent sur toutes les cartes
N'oubliez pas d'ajuster le min et le max de chaque série. Il est également possible d'ajouter ou supprimer des classes si nécessaire
Dans cet exemple, une discrétisation Jenks a été appliquée sur les données 2001 puis retranscrites pour 2009 :
Si on souhaite comparer des données différentes, les bornes de classes ne peuvent plus être identiques. On doit alors comparer la position relative des individus géographiques : comparaison relative
Les même classes avec des fréquences identiques et le même niveau de gris se retrouvent sur toutes les cartes
Il est évidemment possible d'utiliser une comparaison relative pour des données de même nature
Une discrétisation en quartile a été appliquée sur les deux séries de données :
La discrétisation des données de taux est obligatoire en cartographie. Il s'agit d'une limite physiologique, l'œil n'étant pas capable d'associer facilement à plusieurs valeurs de gris plusieurs données.
De nombreuses méthodes de discrétisation existent et le choix final dépend évidemment des étapes précédentes.
N’oubliez pas que vous pouvez faire des ajustements manuels sur la discrétisation (bornes des classes) si cela est justifié : soyez pragmatiques !
Vous ne voulez pas que l’on vous accuse d’avoir manipulé la discrétisation ?
Vous ne souhaitez pas comparer votre carte à une autre et voulez suivre au mieux la forme de la distribution ?
Vous devez faire une carte pour le grand public ?
Votre serie de données suit une loi normale et vous souhaitez montrer les individus géographiques « anormaux » ?
Vous voulez comparer des données de même nature ?
Vous voulez comparer des données de différentes natures ?
La discrétisation des données de taux est obligatoire en cartographie. Il s'agit d'une limite physiologique, l'œil n'étant pas capable d'associer facilement à plusieurs valeurs de gris plusieurs données.
De nombreuses méthodes de discrétisation existent et le choix final dépend évidemment des étapes précédentes.